查看原文
其他

汉语拼音 60 年:是什么助推了汉字的拉丁化,我们的思维方式为何改变?

2018-02-23 韩方航 好奇心日报

这一切,还是需要从“如何让每个中国人用上计算机”开始说起。

假设有个人于 1964 年出生在中国南方,他(姑且假设是他)在小学一年级学到了汉语拼音,并借此了解了普通话的读音。在之后 30 年时间里,他很有可能再也没有机会使用拼音,直到 1990 年代。

这个人被委派到了新的工作岗位,相比新技术,文件里的各种新名词成了真正困扰他的东西。在编制文件的时候,他不知道这些字到底怎么写,比如同事告诉他“混凝土”这个名词被缩写成了一个读音为 tóng 的字。

在单位的公用电脑上,他一个键、一个键地敲下了 tong 这四个字母。找了一番之后,他看到了“砼”这个字。

拼音当时是非日常的存在,可能要等到儿女送他第一台电脑,这个“60 后”才会被迫逐渐回忆拼音的规则。再等到他有了第一台可以手写的智能设备,他终于不必费心回忆各种字的读音——他回到了汉字的输入方式,但依然困扰于前后鼻音以及平翘舌音的区分。

不过对于他的儿孙来说,拼音的应用就完全不同——尤其是最年轻的一代,拼音是如此日常,以至于有个叫“手癌”的词专门形容输入失误。

2018 年 2 月 11 日,汉语拼音迎来 60 周年纪念。它在创立之初被设定为“汉字的注音工具和普通话的推广工具”,但在个人计算机以及智能设备的普及之下,变成了人们在虚拟世界交流的主导性存在。

汉字最近一次危机发生在 1970 年代。在电脑刚刚诞生的那些年里,如何让中文能够与电脑匹配是一个亟待解决的问题。五笔的发明者王永民认为:“当电脑进入中国的时候,中外人士曾有一大困惑——成千上万的汉字,能够进入只有 26 个字母键的计算机吗?那个年代,国内外报刊上登出了‘计算机是汉字的掘墓人,是拼音文字的助产士’的文章,宣扬汉字‘走进了时代的死胡同’,该‘寿终正寝’了。”

五笔输入法解救了这个局面,但很快让位于拼音,后者一直主导至今——事实上远超“主导输入法”的意义,如果你的生活中很少用到纸笔,你会发现输入方式已经完全拉丁化了。而这个情况正在越来越普及。

换句话说,中国的表意表形文字对于书写者来说,已经让位于拼音拉丁化的环境——当初反对汉字改革的那些学者的担忧似乎正在成为现实。

这一切,还是需要从“如何让每个中国人用上计算机”开始说起。

1、为何五笔先于拼音得势?

五笔由汉字校对照排机研究员王永民历经 5 年、于 1983 年发明。这种技术通过拆分汉字的字形,并与键盘上的拉丁字母配对,三个拉丁字母就能够输入一个特定的汉字。在得到国家政策的扶持之后——国家科委、国防科工委都曾发文要求推广五笔输入法——五笔成了当时一代人最先学习的汉字输入法。许多人报名电脑培训班,其中一课就是练习五笔打字,人们需要熟悉键盘旁贴着的表格,上面标明了字形和按键的对应。

王永民曾经在《求是》杂志上发表文章,回忆发明五笔输入法的过程:“汉字的读音只有 400 多种,要对应成千上万个汉字,用拼音输入是‘输入容易找字难’。”事实上,重码问题也被公认为是早期拼音输入法的最大劣势。

王永民


从汉字的角度来看,能够将不同汉字区分开来的特征也就是字音、字形这两种。拼音在当时无法提高输入效率,而且,从字形入手来解决汉字输入问题,还有另一个更加直观的理解——输入汉字就像是在写字,这样似乎更加贴近中国人的书写习惯。

“我国东汉文字学家许慎,早在一千九百年之前,就指明了突破口。他在《说文解字》中,对汉字作了综观全局的分析,揭示了汉字构造的内在规律,他说‘独体为文,合体为字’。他认为,成千上万的汉字,都是由 500 来个基本的独体字,像搭积木那样拼合构成的。这些独体字叫做‘文’,再由‘文’拼合而成者,谓之‘字’。‘文’只有几百个,而‘字’可以有几万个。”王永民在一次演讲中这样回忆。

不过,最早通过拆分字形来实现汉字输入的人并不是王永民。1976 年,台湾人朱邦复就公布了他的形意检字法,两年后蒋纬国用中国神话传说中的造字史官“仓颉”为其命名,即仓颉输入法。

朱邦复 1937 年出生于湖北黄冈,战乱中随父亲迁居台湾,此后辗转巴西、美国等地,并在 1973 年回到台湾。朱邦复自称自己一直希望能够通过字形来实现汉字输入:“因为在我多年的研究中,发现了文字的基本因子:对输入而言,是为字码;对排序则用字母;辨识则利用基本形及位置;字形可以靠笔形的比例组合。”

另一种在 1990 年代流行的通过拆字完成汉字输入的则是郑码输入法,由中国文字学家、《英华大词典》主编郑易里发起,后经其女儿郑珑所完成。1989 年,郑码输入法申请专利,之后也被微软的 windows 操作系统接纳为内置输入法之一。

“早期的拼音输入法不是很成功,这就给了其他输入法的迅速崛起创造了条件。”在《数学之美》一书中,自然语言处理专家吴军这样写道,“各种输入法的专利到 1990 年代初已经有了上千种,以至于一些专家认为中国软件业之所以上不去,是因为大家都去做输入法了。”

大量专业性的输入法占领市场,其中最成功的自然还是五笔。当时的各家公司都有一个极具时代特色的职位,五笔打字员,用以将手写的文件输入成电子文件。

五笔输入法字型字根表


吴军认为,五笔的成功并非因为五笔本身有多么出色。他从数学信息论的角度进行分析,得出结论,理论上只要敲击三下键盘,就能够输出一个汉字。“王永民的五笔输入法暂时胜出,并不是因为他的输入法更合理,而是他比其他发明者更会做市场而已。”

吴军甚至相信类似于五笔这样的复杂输入法有天生的缺陷。他引用实验结果称,使用这类复杂输入法的人,在脱稿打字时的速度只有看稿打字的四分之一。“在使用这些输入法时都要按照规则临时拆字,这个时间不仅长,而且在脱稿打字时严重中断思维……因此广大中国计算机用户对于这一类输入法认可度极低。”

从初学五笔,到能够每分钟输入 80 到 90 个字,需要大约两个月的时间。而在使用五笔的过程中,如果不是对着现成的文稿打字,也很容易就切换到拼音输入法。这似乎印证了吴军的观点,思维通常是以语音的方式进行的。要将思维对应到汉字字形,再使用五笔输入法输入电脑,这整个流程并不直观。

2、到底是什么阻碍拼音成了主流输入法?

答案是内存。

1995 年诞生的智能 ABC 输入法算是早期最容易使用的拼音输入法,但它其实仍然十分笨拙。输入对应的拼音,敲击空格,会弹出一个庞大的字库。由于词频预设不佳,因此使用者需要花很多时间才能寻找需要的字。而当碰上 shi 或者 zhi 这样能够对应大量汉字的音节,则更让人崩溃。因此,在当时很多人使用拼音输入法时,采用的都是输入词组的方式,例如当需要输入“雅虎”一词时,会输入“典雅”和“老虎”,再将不适用的字删去,但这仍然不是一种高效的输入方式。

1999 年 12 月,由考拉拼音发展而来的紫光拼音正式发布。紫光拼音则直接将“雅虎”一词加入内置的词库当中,用户直接键入 yahu,就会跳出“雅虎”的选项。

要做到像紫光拼音这样通过词库来增加拼音输入效率,前提就必须是存储空间的扩张。1999 年主流电脑配置变成了 64MB 内存以及 6.4 GB 硬盘。这才有了紫光拼音诞生的基础。此后,拼音输入法不断更新,推出了包括模糊音(帮助有口音的人使用拼音)、自定义字库(用户自己的常用字、词提前被输入法记忆)等多种功能,进一步提高了拼音的输入效率。

回顾最初,1981 年的 IBM 电脑内存空间仅为 4 KB,固定存储空间则依靠 5.25 英寸软盘,单张存储空间最大为 1.2 MB。由于处理空间有限,要使用中文输入法都需要外接所谓的“汉卡”,即安装有中文输入法程序的只读存储器。

1989 年,史玉柱开发出了 M-6401 桌面文字系统,并封装在一个只读存储器当中。通过外接一个硬件,汉卡帮助当时的电脑实现汉字输入和输出的功能。仅仅依靠汉卡,史玉柱在 4 个月的时间内,营业收入就超过了 100 万元。而中国最早的科技公司大多都从事过汉卡的生意,包括联想、方正,也包括王永民的王码集团。

巨人的 M-6403 汉卡


这些隐藏在代码、芯片、和电子元件中的技术进步,对于现在大多数使用者来说都相当陌生。随着电脑硬件的进步,所有这一切都被整合进了电脑的操作系统当中,汉卡也早已被淘汰。不过,汉卡可以被看作是输入法的前身。在本质上,他们要解决的都是如何让普通人使用电脑这一问题。只不过汉卡作为一种硬件被淘汰了,而其中的程序,尤其是输入法的部分不断演进、更新。

3、当代毕昇王选

汉字与电脑兼容的问题是一个“系统性工程”,包括输入,输出等多个方面,1970 年代末陆续登场的汉字输入法解决的是输入问题的话,王选和他发明的激光照排技术解决的就是汉字输出的问题。从这个意义上来说,王选被称为当代毕昇并不为过。

传统的中文印刷,采用的还是铅字排版的手段,效率低下。一个未经证实的传言是,朱邦复当时在巴西出版社工作时发现,一本英文书可以通过电脑排版、校对、印刷,整个过程仅需要 12 小时。而一本中文书选用铅字排版、校对,再到正式印刷,整个过程长达半年。这意味着中文信息传递的速度极慢,在知识爆炸的时代,这是一个巨大的威胁。

当时,中文印刷和英文印刷最大的差异仍然是由汉字带来的。英文印刷仅需 26 个字母和若干标点符号就能完成,而中文则依赖于成千上完的汉字。与输入法面临的问题一样,当时最大的问题也就是 512KB 储存装置无法保存如此多的内容。

王选采用的方式与朱邦复的仓颉输入法、王永民的五笔输入法有异曲同工之处。通过分析汉字字形,王选将汉字拆分成为规则笔划和不规则笔划,前者可以用参数表示,后者则可以用轮廓描述,相当于用另一种更为简单的方式对汉字进行编码,而不用记忆整个汉字的字形。储存这些新编码的所需要的空间仅为原本的 1/500 。再加上改进以后的汉字输出速度,王选通过激光照排技术解决了电子时代下的汉字印刷问题。

4、拼音输入的流行

手机的进化对拼音的大规模应用功不可没。

根据 2006 年《上海青年报》的报道,“由于手机市场基本被诺基亚、摩托罗拉和三星等国际巨头占据,他们使用的输入法又以美国的 T9 和加拿大的‘字源’等标准为主,其中 T9 大约占据了 50% 的市场,这直接影响了整个手机市场对汉字输入方式的需求方向。”

T9 即是通常意义上的九宫格键盘。以往,在手机上输入,需要按下对应的按键。例如要输入字母 B 就需要连续按两下 2 键。九宫格键盘的简化之处在于,只需要输入该字母所在的按键一次,程序按算法自动组成合法的拼音,从而提升汉字输入的效率。再配合短信的流行——2005 年全国短信发送量达到 3000 亿条—— T9 输入法很快帮助了拼音的流行。

而很快,智能手机的诞生将一个完整的电脑键盘安在了手机屏幕之上。至此,手机和电脑的输入法实现了合流。只要学会一种拼音输入法就能够畅通无阻地进行电子输入。

2006 年,搜狗输入法推出。据搜狗 CTO 杨洪涛回忆,1990 年代输入法的词库来源,是通过当时的官方媒体,从报纸上刊载的大量报道中,进行词频统计。统计出来的词库既不符合用户的日常语言,又无法随着社会的变化而更新换代,因此当用户在输入拼音的时候,仍然需要花时间从词库中挑选词汇,准确率提升有限。

搜狗的崛起正是建立在“快捷”的需求之上。其原理可以简单理解为,搜狗输入法借助搜狗搜索引擎技术将词库扩展到了极限,即整个中文互联网的内容。通过将用户输入的拼音,与整个中文互联网匹配,从而挑选出最有可能是这个用户想要的内容。

杨洪涛喜欢举的例子是,2006 年正是《超级女声》最火爆的一年。搜狗通过网络抓取,使得用户直接输入 liyuchun 就能够自动联想出“李宇春”,而不需要用户先输入“李”、再输入“宇”、最后输入“春”。通过将整个词库扩大到中文互联网,搜狗输入法逼近了吴军理想中的输入法方案,“假定有大小不受限制的语言模型,是可以达到信息论给出的极限输入速度的。”

搜狗输入法迅速成为了市面上最主流的输入法,一年内市场份额一度超过 90%。直到后来,Google、腾讯、百度纷纷开发自己的基于互联网技术的中文输入法,搜狗输入法的市场份额才慢慢滑落,但始终维持在 70% 以上。

搜狗输入法

5、好了,现在我们可以回到汉字拉丁化的历史上来

早在明代耶稣会传教士来到中国传教,就曾经尝试用拉丁字母来为汉字注音,以便东西方之间的交流。而到了 19 世纪末,全国各地都出现了用拉丁字母为当地方言注音的《圣经》版本。西方传教士是汉字拉丁化的最初践行者。

最早明确提出汉字拉丁化主张的是晚清国学大师俞樾的弟子宋恕。在《六斋卑议》 中,他写道:“江淮以南,须造切音文字多种,以便幼学。”换句话说,宋恕认为相比起拼音文字,汉字复杂难学,造成文盲率居高不下,阻碍了国家社会的进步与发展。

从 1915 年开始的新文化运动也大多继承了这一想法,废除汉字的主张和口号也越来越激烈。瞿秋白要求:“现代普通话的新中国文,必须罗马化,就是改用罗马字母,要根本废除汉字。”蔡元培也认为:“汉字既然不能不改革,尽可直接的改用拉丁字母了。”鲁迅甚至一度发出:“汉字不灭,中国必亡”的呐喊。

1918 年,当时的中华民国教育部正式推出注音符号系统。它可以被看作是一种早期的汉语拼音,最大的区别在于注音符号基于章太炎发明的“纽文”、“韵文”系统,而非 abcd 这样常见的拉丁字母。注音符号系统历经多次修订,现在主要流行于台湾。大陆尽管在 1958 年以后用汉语拼音代替了注音符号,但是在《新华字典》、《现代汉语词典》等辞书中依旧保留了注音符号的写法。

中国共产党在很长一段时间内继承了汉字拉丁化这一传统。十月革命之后,苏联发起文字拉丁化运动,并组建委员会开始研究汉字拉丁化的问题,目的是为了帮助中国北方工人扫盲,以便让他们成为国际共产主义运动的中坚力量。

1929 年 2 月,瞿秋白拟订了第一个中文拉丁化方案,并在 10 月写成一本小册子《中国拉丁化字母》。在苏联协助修订了这个方案之后,正式于 1934 年在中共占领区和受苏联影响较大的区域进行推广。语言学家陈平在《现代汉语》一书中提到,从 1933 年到 1944 年该方案被废除之前,有 300 多种出版物(约 50 万份)使用了这样一种拉丁化的新文字。

用拼音印刷发型的《大众报》


1949 年以后,这一政策也延续下来,看到蒙古、越南、朝鲜等国将原本的文字都改成拉丁化文字之后,刘少奇要求中宣部研究这些国家的的文字改革经验,作为中国文字改革方案的参考。毛泽东也要求“文字必须改革,要走世界文字共同的拼音方向”。

当然,也不乏反对的声音。考古学家、甲骨文研究者陈梦家是最早、也最知名的反对者。1957 年,它发表《慎重一点“改革”汉字》和《关于汉字的前途》,不赞成废除繁体字实行简化字,以及实行汉字拉丁化。在当时的政治环境下,陈梦家很快被打成右派,最后在文革中自杀身亡。

不过,中国共产党最后采取了一个折衷的方案。 在何伟的《甲骨文》一书中,他引述周有光的话,认为这是斯大林影响了毛泽东。

“那时,毛泽东很敬重斯大林,把他当作共产主义世界的领导人。他告诉斯大林,中国将要进行文字改革,并征求斯大林的意见。斯大林跟他说:‘你们是个伟大的国家,你们应该有自己的、中国式的文字。你们不应该只是使用拉丁字母。’”

中国共产党的确放弃了完全将汉字拉丁化的设想。1958 年,语言学家周有光与他的团队发明了汉语拼音系统,这个时间甚至比第一台真正意义上的个人计算机,即 1981 年的 IBM PC 要早了 20 多年。

同年,在《当前文字改革的任务》中,周恩来写道:“首先,应该说清楚,汉语拼音方案是用来为汉字注音和推广普通话的,它并不是用来代替汉字的拼音文字。”这一说法后来成为了拉丁字母和汉字之间界限的官方标准。

2018 年 1 月 14 日,Google 将封面换成了周有光,纪念他逝世一周年。

Google 纪念周有光

6、为什么很多字你认识,但你并不会写?

吴军这样形容汉字输入从拼音、到字形、再到拼音的过程,“不是简单的重复,而是一种升华”。

事情或许并不只是“升华”这么简单。

现在中国人用拼音识字、在电脑上输入拼音以显示汉字,但在阅读和手写的过程中,汉字仍然是唯一的媒介。没有人能仅仅通过阅读拼音来理解一篇文章,也没有人会将拼音作为书面交流的工具。

这似乎形成了一种折中的局面。留恋传统文化的人会因此感到庆幸,至少在书写的时候,中国人使用的还是传统汉字。而对于一门心思相信拉丁化会让我们更接近于全球文化的人来说,如今拼音文字除了让我们开始学习汉字的时候减少了很多麻烦,它还成了我们思维的重要组成部分。

“手癌”成为了网络热词,特指那些用输入法打字过快,以至于没有发现当中出现错字就发送出去的行为。

许多人依然可以辨认汉字的偏旁部首,有些人会猜测一个陌生字的读音。对于大多数人来说,如果他不认识字,但会念,在输入法里找到这个字的可能性极高——在这种情况下,拼音的文字学习功能被放大了。与此同时,人们可能会越来越不在意某个字的具体写法。

这导致的结果就是:很多字你认识,但你并不会写。

举例来说,打出秦始皇的名字“嬴政”很简单,但不少人不会在意“赢”、“嬴”、“蠃”、可能还有“蠃”的差别。而“饕餮”这两个字,可能你早就不会写了,但在它们出现的时候,你知道它代表贪吃,你恰好知道怎么念,你直接打出 taotie 这串字符,这两个字也就出来了。

但这种拼音化显然也不完全。当 “zhi he bi z nide shh zho yj jians dao jiej yu wu,nide yuy ken yj js zg yzi l ”这样一串文字出现的时候,你会一头雾水。不过,当你将这串文字输入电脑中时,可能输入法就会告诉你这样一句话:“纸和笔在你的生活中已经减少到接近于无,你的语言可能已经就是这个样子了。”

许多人也有这样的体验:在写文章的时候,输入法的联想功能往往会出其不意改变用词习惯,而纸笔书写并不会这样。输入法提供了更多的选择,这些选择往往最初并不在写作者的考虑范围之内。

2002 年,牛津大学的一组科学家就在人的认知过程中,拼音与汉字是否存在差异进行了研究。在扫描了人的大脑之后,他们发现在阅读拼音和阅读汉字的时候,大脑不同区域的活动强度存在明显的差异。他们因此假定,拼音和汉字在神经生物学上,会激起人类不同的认知反应。

王永民和朱邦复近来频繁将汉字与中华文化勾连在一起。王永民在《求是》杂志的文章写道:“汉字是中华文化的血脉之根,是中华民族最伟大的文化遗产,怎能丢弃不用呢?汉字兴亡,匹夫有责!”

对于大多数普通人来说,这样的讨论多少显得有些无关紧要,除了报章上偶尔会出现的“提笔忘字”的讨论,没有多少人会去操心这个事情。当初对拉丁化鼓与呼的人,可能发现“梦想”已经实现了大部分。

一个进一步的问题是,当科技再次发生演变的时候,拼音还能保有现在的地位吗?

就全球的趋势而言,虽然文字对信息密度而言依然有不可取代的地位,图像取代文字已经是讨论多年的议题。杨洪涛相信,如果未来设备形态发生变化,“变成智能手表、变成智能眼镜了”,拼音可能就又有一个革命性的变化。

在这个过程中,语言工具对于思维方式的塑造作用,会一直存在。

题图:unsplash

国内 75% 的机票价格将交给市场决定,这 9 个问题帮你理解票价到底受哪些因素影响


明天就要回归日常生活,关于独处和陪伴这里有 9 个建议 | Hack Your Life


打猎这件事如何塑造了人类?或许你能从白鹿捕猎中获得启示



- 关注好奇心研究所,与有气质的你共勉高尚趣味 -

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存